Telegram Group & Telegram Channel
Что такое аккумулирование градиентов и как оно влияет на Batch Normalization

🔹 Gradient Accumulation — это метод, при котором градиенты суммируются в течение нескольких шагов перед обновлением весов. Он полезен, когда память ограничена и нельзя использовать большие батчи.

Преимущества:
▪️ Позволяет эффективно обучать модели на малом объеме памяти.
▪️ Увеличивает эффективный размер батча, что стабилизирует градиенты.

Влияние на Batch Normalization:
▪️ Batch Normalization рассчитывает статистики (среднее и дисперсию) внутри одного батча. При аккумулировании градиентов батчи становятся меньше, что может привести к менее стабильному обучению.

Как решить проблему?
▪️ Использовать Layer Normalization, которая нормализует данные внутри каждого отдельного примера, а не по батчу.

Библиотека собеса по Data Science



tg-me.com/ds_interview_lib/897
Create:
Last Update:

Что такое аккумулирование градиентов и как оно влияет на Batch Normalization

🔹 Gradient Accumulation — это метод, при котором градиенты суммируются в течение нескольких шагов перед обновлением весов. Он полезен, когда память ограничена и нельзя использовать большие батчи.

Преимущества:
▪️ Позволяет эффективно обучать модели на малом объеме памяти.
▪️ Увеличивает эффективный размер батча, что стабилизирует градиенты.

Влияние на Batch Normalization:
▪️ Batch Normalization рассчитывает статистики (среднее и дисперсию) внутри одного батча. При аккумулировании градиентов батчи становятся меньше, что может привести к менее стабильному обучению.

Как решить проблему?
▪️ Использовать Layer Normalization, которая нормализует данные внутри каждого отдельного примера, а не по батчу.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/897

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Библиотека собеса по Data Science | вопросы с собеседований from nl


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA